맨위로가기

ISO/IEC 8859

"오늘의AI위키"는 AI 기술로 일관성 있고 체계적인 최신 지식을 제공하는 혁신 플랫폼입니다.
"오늘의AI위키"의 AI를 통해 더욱 풍부하고 폭넓은 지식 경험을 누리세요.

1. 개요

ISO/IEC 8859는 국제 표준화 기구(ISO)와 국제 전기 표준 회의(IEC)가 공동으로 제정한 문자 인코딩 표준이다. 이 표준은 여러 부분으로 구성되어 있으며, 각 부분은 특정 언어군을 지원한다. ISO/IEC 8859-1은 "라틴 문자 제1부"로, 서유럽, 아메리카 대륙, 오세아니아, 아프리카 등 여러 지역에서 사용되며, 영어, 독일어, 프랑스어, 스페인어 등 다양한 언어를 지원한다. ISO/IEC 8859는 유니코드의 등장 이전, 단일 바이트 문자 집합으로 널리 사용되었으나, 유니코드의 보급으로 사용 빈도가 줄어들었다. ISO/IEC 8859-1은 IANA에 ISO-8859-1로 등록되었으며, HTML 문서의 기본 인코딩으로 사용되기도 한다.

더 읽어볼만한 페이지

  • ISO/IEC 8859 - ISO/IEC 8859-8
    ISO/IEC 8859-8은 히브리어 텍스트 표현을 위해 설계된 ISO/IEC 8859 문자 인코딩의 일부로, 양방향 텍스트 지원 특징을 포함하며 RFC-1556에서 두 가지 변형을 정의한다.
  • ISO/IEC 8859 - ISO/IEC 8859-15
    ISO/IEC 8859-15는 ISO 8859-1을 확장하여 유로 기호와 일부 유럽어 문자를 추가한 8비트 문자 인코딩 방식이지만, UTF-8로 대체되어 널리 사용되지는 못했다.
  • 문자 집합 - 점자
    점자는 루이 브라이유가 개발한 시각 장애인용 촉각 문자 체계로, 6점 점자를 사용하여 133개 이상의 언어에 적용되었으며, 교육, 정보 접근, 사회 참여에 필수적인 역할을 수행하지만 문해력 저하와 교육의 어려움이라는 과제도 안고 있다.
  • 문자 집합 - ISO/IEC 646
    ISO/IEC 646는 ASCII 기반의 7비트 문자 인코딩 표준으로, 국가별 변형이 존재했으나, 최종 개정판은 ASCII와 호환되도록 정의되었고, 현재는 ITU-T 권고 T.50 IRA가 현행 표준으로 유지되고 있다.
  • Ecma 표준 - ISO/IEC 646
    ISO/IEC 646는 ASCII 기반의 7비트 문자 인코딩 표준으로, 국가별 변형이 존재했으나, 최종 개정판은 ASCII와 호환되도록 정의되었고, 현재는 ITU-T 권고 T.50 IRA가 현행 표준으로 유지되고 있다.
  • Ecma 표준 - 유니버설 미디어 디스크
    유니버설 미디어 디스크(UMD)는 소니 PSP에 사용된 60mm 광 디스크로, 게임, 영상, 음악 콘텐츠를 최대 1.8GB까지 저장하며, DVD와 유사한 지역 코드와 AES 128 비트 암호화를 사용했지만, PSP 외 다른 기기에서 사용 불가 및 디지털 미디어의 발달로 인해 2010년대 초반에 지원이 중단되었다.
ISO/IEC 8859
ISO 8859 인코딩 모음
표준ISO/IEC 8859
기반ASCII
이전 표준ISO/IEC 646
다음 표준ISO/IEC 10646 (유니코드)
관련 표준ISO/IEC 10367
Windows-125x
분류8비트 확장 ASCII, ISO/IEC 4873 레벨 1

2. 역사

ISO/IEC 8859-1DEC의 VT220영어 단말에서 사용되던 Multinational Character Set영어을 기반으로 제작되었다. 유럽 전자 계산기 공업회(ECMA, 현 Ecma 인터내셔널)와 미국 국가 표준 협회가 공동으로 개발을 진행했으며, 1984년 12월 ECMA-94로 제정되었고, 1985년 3월에 출판되었다. 단, 이 시점의 ECMA-94는 곱하기 기호(13/07「×」)과 나눗셈 기호(15/07「÷」)를 포함하지 않았다. 1986년 6월에 ECMA-94는 개정되었으며, [http://www.ecma-international.org/publications/files/ECMA-ST/Ecma-094.pdf ECMA-94 제2판]은 ISO/IEC 8859-2, ISO/IEC 8859-3, ISO/IEC 8859-4를 규격의 일부로 포함하고 있다.

ISO 8859-1 및 ISO 8859-2는 1987년 2월 15일에 ISO의 국제 규격으로 제정되었다. ISO 8859-3 및 ISO 8859-4는 1988년 4월 15일에 제정되었다.

2. 1. 개발 배경

ASCII는 95개의 인쇄 가능한 문자를 포함하고 있어 현대 영어에서 정보를 표현하는 데는 충분하지만, 라틴 문자를 사용하는 다른 언어들은 ASCII로 처리할 수 없는 추가적인 기호들을 포함하고 있다. 예를 들어, ß(독일어), ñ(에스파냐어), å(스웨덴어와 북유럽 언어) 등이 있다. ISO/IEC 8859는 8비트 바이트의 여덟 번째 비트를 활용하여 추가적인 128개의 문자를 할당함으로써 이러한 문제를 해결하고자 했다. 그러나 하나의 문자 집합만으로는 필요한 모든 문자를 처리할 수 없었기 때문에 여러 가지 매핑이 개발되었다.

ISO/IEC 8859 표준 파트는 인쇄 가능한 문자만 정의하지만, ISO/IEC 4873에 따라 바이트 범위 0x00–1F 및 0x7F–9F를 "그래픽 문자를 나타내지 않는 조합" (즉, 제어 문자로 사용하도록 예약됨)으로 명시적으로 구분한다. 이는 ISO 6429 또는 ISO 6630과 같이 이러한 바이트와 관련된 제어 기능을 정의하는 별도의 표준과 함께 사용하도록 설계되었다.[2] 이를 위해 IANA에 등록된 일련의 인코딩은 ISO 646의 C0 제어 세트(바이트 0~31에 매핑된 제어 문자)와 ISO 6429의 C1 제어 세트(바이트 128~159에 매핑된 제어 문자)를 추가하여 대부분, 아니 모든 바이트가 할당된 완전한 8비트 문자 맵을 생성한다. 이러한 세트는 선호하는 MIME 이름으로 ISO-8859-''n''을 사용하거나, 선호하는 MIME 이름이 지정되지 않은 경우 정식 이름을 사용한다. 많은 사람들이 ISO/IEC 8859-''n''과 ISO-8859-''n''이라는 용어를 상호 교환적으로 사용하며, ISO/IEC 8859-11은 TIS 620과 거의 동일했기 때문에 이러한 문자 집합이 할당되지 않은 것으로 보인다.

ISO/IEC 8859는 다음과 같은 파트로 구성되어 있다.

파트이름개정기타 표준설명
파트 1Latin-1
서유럽
1987, 1998ECMA-94 (1985, 1986)ISO/IEC 8859의 가장 널리 사용되는 파트 중 하나로, 네덜란드어(일부[14]), 노르웨이어, 덴마크어, 독일어, 로만슈어, 스웨덴어 스코틀랜드 게일어, 아이슬란드어, 아일랜드어, 에스파냐어, 영어, 이탈리아어, 페로어, 포르투갈어, 프랑스어(일부[15]), 핀란드어(일부[15]), 알바니아어, 스와힐리어, 아프리칸스어 등 대부분의 서유럽 언어를 지원한다. 유로 기호(€)와 대문자 "Ÿ"는 개정판인 ISO 8859-15에 추가되었다. IANA의 문자 집합 ISO-8859-1에 대응하며, HTML 문서의 기본 인코딩이다.
파트 2Latin-2
중앙 유럽
1987, 1999ECMA-94 (1986)[3]보스니아어, 슬로바키아어, 슬로베니아어, 체코어, 크로아티아어, 폴란드어, 헝가리어 등 로마 문자를 쓰는 중앙유럽과 동유럽의 언어를 지원한다. 유로 기호는 ISO 8859-16에서 추가되었다.
파트 3Latin-3
남유럽
1988, 1999몰타어, 튀르키예어, 에스페란토를 지원한다. 터키어는 ISO/IEC 8859-9, 에스페란토는 유니코드로 대체되어가고 있다.
파트 4Latin-4
북유럽
1988, 1998에스토니아어, 라트비아어, 리투아니아어, 그린란드어, 사미어를 지원한다.
파트 5Latin/키릴 문자1988, 1999ECMA-113 (1988, 1999)[4]러시아어, 마케도니아어, 벨라루스어, 불가리아어, 세르비아어, 우크라이나어(일부[16]) 등 키릴 문자를 쓰는 대부분의 슬라브어를 지원한다.
파트 6Latin/아랍어1987, 1999아랍어를 지원한다. 아랍 문자를 쓰는 다른 언어는 지원하지 않는다. 표시를 위해서는 양방향 문자와 문자 결합을 처리해야 한다.
파트 7Latin/그리스어1987, 2003현대 그리스어를 지원한다. 문자 개혁 이전의 고전 그리스어(polytonic orthography)는 유니코드에서 지원한다.
파트 8Latin/히브리어1988, 1999이스라엘에서 쓰이는 현대 히브리어를 지원한다. 좌에서 우, 또는 우에서 좌 두 가지 방향의 인코딩이 모두 존재한다.
파트 9Latin-5
터키
1989, 1999ISO 8859-1와 거의 비슷하다. 거의 쓰이지 않는 아이슬란드어 문자 대신 튀르키예어 문자를 추가했다. 쿠르드어 표기에도 사용된다.
파트 10Latin-6
노르딕
1992, 1998ECMA-144 (1990, 1992, 2000)라틴-4의 문자를 재배열했다. 노르딕 언어의 표기에 더 적합하며, 발트 언어에는 라틴-4가 더 편리하다.
파트 11Latin/타이2001TIS-620 (1986, 1990)타이어 (언어):타이어에서 쓰이는 여러 문자를 추가했으며, TIS 620과 동일하다.
파트 12Latin/데바나가리 문자N/A-원래 켈트어를 지원하도록 제안되었고,[5][6] 이후 Latin/데바나가리 문자로 예정되었지만,[7] 1997년 ISO/IEC JTC 1/SC 2/WG 3의 제12차 회의에서 폐기되었다.[8]
파트 13Latin-7
발트 해 연안
1998-라틴-4와 라틴-6에 빠진 발트 언어의 문자를 추가했다.
파트 14Latin-8
켈트
1998-스코틀란드게일어나 브르타뉴어 등의 켈트어를 지원한다.
파트 15Latin-91999-8859-1에서 쓰이지 않는 기호를 제거하고, 유로 기호Š, š, Ž, ž, Œ, œ, Ÿ 문자를 추가하여 프랑스어, 핀란드어, 에스토니아어를 완전하게 지원한다.
파트 16Latin-10
남동유럽
2001SR 14111 (1998)루마니아어, 슬로베니아어, 알바니아어, 이탈리아어, 크로아티아어, 폴란드어, 헝가리어를 비롯하여 독일어, 아일랜드어(신철자법), 프랑스어, 핀란드어를 지원한다. 기호보다는 문자에 초점이 맞춰져 있으며, 여러 통화 기호가 빠지고 유로 기호가 추가되었다.



ISO/IEC 8859-1은 DEC의 유명한 단말에서 사용되던 것을 기반으로 제작되었다. 개발은 유럽 전자 계산기 공업회(ECMA, 현 Ecma 인터내셔널)와 미국 국가 표준 협회가 공동으로 진행했으며, 1984년 12월 ECMA-94로 제정되었고, 1985년 3월에 ECMA-94로 출판되었다. 단, 이 시점의 ECMA-94는 13/07「×」과 15/07「÷」를 포함하지 않았다. 1986년 6월에 ECMA-94는 개정되었으며, [http://www.ecma-international.org/publications/files/ECMA-ST/Ecma-094.pdf ECMA-94 제2판]은 규격의 일부로서 ISO/IEC 8859-2, ISO/IEC 8859-3, 그리고 ISO/IEC 8859-4를 포함하고 있다.

ECMA-94의 일부인 ISO 8859-1 및 ISO 8859-2는 1987년 2월 15일에 ISO의 국제 규격으로 제정되었다. 또한, ISO 8859-3 및 ISO 8859-4는 조금 늦게 1988년 4월 15일에 제정되었다.

2. 2. ISO/IEC 8859-1의 초기 역사

DEC의 유명한 VT220영어 단말에서 사용되던 Multinational Character Set영어을 기반으로 ISO/IEC 8859-1이 제작되었다.

유럽 전자 계산기 공업회(ECMA, 현 Ecma 인터내셔널)와 미국 국가 표준 협회가 공동으로 개발을 진행했으며, 1984년 12월 ECMA-94로 제정되었고, 1985년 3월에 ECMA-94로 출판되었다.

하지만, 이 시점의 ECMA-94는 곱하기 기호(13/07「×」)과 나눗셈 기호(15/07「÷」)를 포함하지 않았다.

1986년 6월에 ECMA-94는 개정되었으며, [http://www.ecma-international.org/publications/files/ECMA-ST/Ecma-094.pdf ECMA-94 제2판]은 규격의 일부로서 ISO/IEC 8859-2, ISO/IEC 8859-3, 그리고 ISO/IEC 8859-4를 포함하고 있다.

ECMA-94의 일부인 ISO 8859-1 및 ISO 8859-2는 1987년 2월 15일에 ISO의 국제 규격으로 제정되었다.

또한, ISO 8859-3 및 ISO 8859-4는 조금 늦게 1988년 4월 15일에 제정되었다.

2. 3. ISO/IEC 8859-15

ISO/IEC 8859-1에는 대부분의 프랑스어 텍스트 표기에 충분한 문자가 포함되어 있지만, 사용 빈도가 낮은 소수의 문자가 누락되어 있다. IJnl의 단일 글리프 표현, 외국의 고유 명사나 소수의 외래어에서 사용되는 핀란드어 문자(Šfi와 Žfi), 인쇄용 인용 부호, 대시, 유로 기호(€)나 단검 ( † )과 같은 자주 사용되는 기호도 부족하다.

ISO/IEC 8859-15ISO/IEC 8859-1의 업데이트 버전으로 개발되어 이러한 문자 중 일부를 제공했다. 하지만 이를 위해 ISO/IEC 8859-1에서 자주 사용되지 않는 문자 (¤, ¦, ¨, ´, ¸, ¼, ½, ¾)를 제거해야 했다. 제거된 문자는 분수 기호나 단독의 분음 부호이다.

3. 구성

ISO/IEC 8859는 여러 부분으로 나뉘어 있으며, 각 부분은 특정 언어군을 지원하기 위해 설계되었다.

파트이름기타 표준설명
파트 1Latin-1, 서유럽ECMA-94영어, 독일어, 프랑스어, 스페인어 등 대부분의 서유럽 언어를 지원한다. 유로 기호(€)와 대문자 "Ÿ"는 ISO 8859-15에 추가되었다.[14][15]
파트 2Latin-2, 중앙 유럽ECMA-94폴란드어, 체코어, 헝가리어 등 중앙 유럽 및 동유럽 언어를 지원한다. 유로 기호는 ISO 8859-16에 추가되었다.[3]
파트 3Latin-3, 남유럽ECMA-94몰타어, 튀르키예어, 에스페란토를 지원한다. 터키어는 ISO/IEC 8859-9로, 에스페란토는 유니코드로 대체되고 있다.[3]
파트 4Latin-4, 북유럽ECMA-94에스토니아어, 라트비아어, 리투아니아어 등 북유럽 언어를 지원한다.[3]
파트 5Latin/키릴 문자ECMA-113러시아어, 불가리아어, 세르비아어 등 키릴 문자를 쓰는 대부분의 슬라브어를 지원한다.[4][16]
파트 6Latin/아랍 문자아랍 문자를 지원한다.
파트 7Latin/그리스 문자현대 그리스어를 지원한다.
파트 8Latin/히브리 문자현대 히브리어를 지원한다.
파트 9Latin-5, 터키ISO 8859-1과 유사하며, 아이슬란드어 문자 대신 튀르키예어 문자가 추가되었다.
파트 10Latin-6, 노르딕ECMA-144북유럽 언어에 더 적합하게 Latin-4의 문자를 재배열했다.
파트 11Latin/타이 문자TIS-620태국어 문자를 지원한다.
파트 12Latin/데바나가리 문자-1997년 공식적으로 폐기되었다.
파트 13Latin-7, 발트해 연안-발트해 연안 언어 문자를 추가했다.
파트 14Latin-8, 켈트어-스코틀랜드 게일어, 브르타뉴어 등 켈트어를 지원한다.
파트 15Latin-9-ISO/IEC 8859-1의 개정판으로, 유로 기호(€) 등이 추가되어 프랑스어, 핀란드어, 에스토니아어를 완전하게 지원한다.
파트 16Latin-10, 남동유럽SR 14111루마니아어, 슬로베니아어 등 남동유럽 언어를 지원한다.



각 부분은 서로 비슷한 언어를 지원하도록 설계되어, 한 언어에 필요한 문자는 보통 하나의 파트에 포함된다. 그러나 일부 문자와 언어는 변환 없이 처리되지 않는 경우도 있다. 변환을 쉽게 하기 위해, 독일어의 경우처럼 모든 라틴 문자 변형(1–4, 9, 10, 13–16)에서 7개의 특수 문자가 같은 위치에 있도록 하는 등 노력을 기울였다. 특히, 변형 1–4는 모든 문자가 지정된 위치에 있거나 아예 없도록 공동 설계되었다.

ISO/IEC 8859-1은 191개의 문자로 구성되며, 아메리카 대륙, 서유럽, 오세아니아, 아프리카의 많은 지역에서 사용된다.

||~||

|-

!8x

|rowspan="2" colspan="16" style="background-color:#cfc"|''미사용''

|-

!9x

|-

!Ax

|''NBSP''



|¢



|¤







|¨

|©







|''SHY''



|¯

|-

!Bx











|µ

|

|·

|¸









|½



|¿

|-

!Cx

|À||Á||Â||Ã||Ä||Å||Æ||Ç||È||É||Ê||Ë||Ì||Í||Î||Ï

|-

!Dx

|Ð||Ñ||Ò||Ó||Ô||Õ||Ö||×||Ø||Ù||Ú||Û||Ü||Ý||Þ||ß

|-

!Ex

|à||á||â||ã||ä||å||æ||ç||è||é||ê||ë||ì||í||î||ï

|-

!Fx

|ð||ñ||ò||ó||ô||õ||ö||÷||ø||ù||ú||û||ü||ý||þ||ÿ

|}

부호 값 00–1F, 7F–9F는 ISO/IEC 8859-1에서는 문자를 할당하지 않았다. 하위 영역의 20부터 7E(G0 부분 집합)는 ISO 646 US 버전(통칭 ASCII)의 G0 부분 집합과 정확히 동일한 매핑이다.

3. 1. 개요

서유럽
ISO/IEC 8859-1
x0x1x2x3x4x5x6x7x8x9xAxBxCxDxExF
0x미사용
1x
2xSP!"#$%&'()*+,-./
3x0123456789:;<=>?
4x@ABCDEFGHIJKLMNO
5xPQRSTUVWXYZ[ \] ^_
6x`abcdefghijklmno
7xpqrstuvwxyz{\} 1987, 1998ECMA-94 (1985, 1986)ISO/IEC 8859의 가장 널리 사용되는 파트 중 하나로, 덴마크어 (부분),[15] 네덜란드어,[14] 영어, 페로어, 핀란드어 (부분),[15] 프랑스어 (부분),[15] 독일어, 아이슬란드어, 아일랜드어, 이탈리아어, 노르웨이어, 포르투갈어, 로망슈어, 스코틀랜드 게일어, 스페인어, 카탈루냐어, 스웨덴어등 대부분의 서유럽 언어를 지원한다. 알바니아어, 인도네시아어, 아프리칸스어, 스와힐리어등 동유럽, 동남아시아, 아프리카 지역의 언어도 지원한다.
파트 2Latin-2
중앙 유럽
1987, 1999ECMA-94 (1986)[3]보스니아어, 폴란드어, 크로아티아어, 체코어, 슬로바키아어, 슬로베니아어, 세르비아어, 헝가리어등 라틴 문자를 사용하는 중앙 및 동유럽 언어를 지원한다. 누락된 유로 기호는 버전 ISO/IEC 8859-16에서 찾을 수 있다.
파트 3Latin-3
남유럽
1988, 1999터키어, 몰타어, 에스페란토어. 터키어의 경우 ISO/IEC 8859-9로 대체되었다.
파트 4Latin-4
북유럽
1988, 1998에스토니아어, 라트비아어, 리투아니아어, 그린란드어, 사미어.
파트 5Latin/키릴 문자1988, 1999ECMA-113 (1988, 1999)[4]벨라루스어, 불가리아어, 마케도니아어, 러시아어, 세르비아어, 우크라이나어 (부분)[16] 등 주로 키릴 문자를 사용하는 슬라브 언어를 지원한다.
파트 6Latin/아랍어1987, 1999가장 일반적인 아랍어 문자를 지원한다. 아랍 문자를 사용하는 다른 언어는 지원하지 않는다. 표시를 위해 BiDi 및 필기체 결합 처리가 필요하다.
파트 7Latin/그리스어1987, 2003현대 그리스어 (단음 표기법)를 지원한다. 고대 그리스어도 악센트 없이 또는 단음 표기법으로 작성된 경우 사용할 수 있지만 다중 음성 표기법에 대한 구두점을 포함하지 않는다. 이러한 구두점은 유니코드에서 도입되었다. 2003년에 업데이트되어 유로 기호, 현대 드라크마 기호 및 간격 ypogegrammeni가 추가되었다.
파트 8Latin/히브리어1988, 1999이스라엘에서 사용되는 현대 히브리 문자를 지원한다. 실제로 두 가지 다른 인코딩, 즉 논리적 순서(표시를 위해 BiDi 처리가 필요함)와 시각적(왼쪽에서 오른쪽) 순서(결과적으로 bidi 처리 및 줄 바꿈 후)가 존재한다.
파트 9Latin-5
터키어
1989, 1999ISO/IEC 8859-1과 거의 동일하며, 거의 사용되지 않는 아이슬란드어 문자를 터키어 문자로 대체한다.
파트 10Latin-6
북유럽
1992, 1998ECMA-144 (1990, 1992, 2000)Latin-4의 재배열. 북유럽 언어에 더 유용하다고 간주된다. 발트어는 Latin-4를 더 많이 사용한다.
파트 11Latin/태국어2001TIS-620 (1986, 1990)태국어에 필요한 문자를 포함한다.
파트 12Latin/데바나가리 문자N/A-원래 켈트어를 지원하도록 제안되었고, 이후 Latin/데바나가리 문자로 예정되었지만, 1997년 ISO/IEC JTC 1/SC 2/WG 3의 제12차 회의에서 폐기되었다.[8]
파트 13Latin-7
발트해 연안
1998-Latin-4 및 Latin-6에서 누락된 일부 발트어 문자를 추가했다.
파트 14Latin-8
켈트어
1998-스코틀랜드 게일어브르타뉴어와 같은 켈트어를 지원한다.
파트 15Latin-91999-8859-1의 개정판으로, 거의 사용되지 않는 일부 기호를 제거하고 유로 기호 와 문자 Š, š, Ž, ž, Œ, œ, Ÿ로 대체하여 프랑스어, 핀란드어에스토니아어의 지원을 완료한다.
파트 16Latin-10
남동 유럽
2001SR 14111 (1998)알바니아어, 크로아티아어, 헝가리어, 이탈리아어, 폴란드어, 루마니아어슬로베니아어를 위한 것이지만, 핀란드어, 프랑스어, 독일어 및 아일랜드 게일어 (새로운 표기법)도 지원한다. 기호보다 문자에 더 중점을 둔다. 통화 기호유로 기호로 대체된다.


3. 2. 각 부분별 설명

ISO/IEC 8859는 여러 문자 집합으로 구성되어 있으며, 각 파트별 설명은 다음과 같다.

파트이름기타 표준설명
파트 1Latin-1, 서유럽ECMA-94가장 널리 쓰이며, 영어, 독일어, 프랑스어, 스페인어 등 대부분의 서유럽 언어를 지원한다. 유로 기호(€)와 대문자 "Ÿ"는 ISO 8859-15에 추가되었다.[14][15]
파트 2Latin-2, 중앙 유럽ECMA-94폴란드어, 체코어, 헝가리어 등 중앙 유럽 및 동유럽 언어를 지원한다. 유로 기호는 ISO 8859-16에 추가되었다.[3]
파트 3Latin-3, 남유럽ECMA-94몰타어, 튀르키예어, 에스페란토를 지원한다. 터키어는 ISO/IEC 8859-9로, 에스페란토는 유니코드로 대체되고 있다.[3]
파트 4Latin-4, 북유럽ECMA-94에스토니아어, 라트비아어, 리투아니아어 등 북유럽 언어를 지원한다.[3]
파트 5Latin/키릴 문자ECMA-113러시아어, 불가리아어, 세르비아어 등 키릴 문자를 쓰는 대부분의 슬라브어를 지원한다.[4][16]
파트 6Latin/아랍 문자아랍 문자를 지원한다.
파트 7Latin/그리스 문자현대 그리스어를 지원한다.
파트 8Latin/히브리 문자현대 히브리어를 지원한다.
파트 9Latin-5, 터키ISO 8859-1과 유사하며, 아이슬란드어 문자 대신 튀르키예어 문자가 추가되었다.
파트 10Latin-6, 노르딕ECMA-144북유럽 언어에 더 적합하게 Latin-4의 문자를 재배열했다.
파트 11Latin/타이 문자TIS-620태국어 문자를 지원한다.
파트 12Latin/데바나가리 문자-1997년 공식적으로 폐기되었다.
파트 13Latin-7, 발트해 연안-발트해 연안 언어 문자를 추가했다.
파트 14Latin-8, 켈트어-스코틀랜드 게일어, 브르타뉴어 등 켈트어를 지원한다.
파트 15Latin-9-ISO/IEC 8859-1의 개정판으로, 유로 기호(€) 등이 추가되어 프랑스어, 핀란드어, 에스토니아어를 완전하게 지원한다.
파트 16Latin-10, 남동유럽SR 14111루마니아어, 슬로베니아어 등 남동유럽 언어를 지원한다.



ISO/IEC 8859의 각 부분은 서로 비슷한 언어를 지원하도록 설계되어, 한 언어에 필요한 문자는 보통 하나의 파트에 포함된다. 그러나 일부 문자와 언어는 변환 없이 처리되지 않는 경우도 있다. 변환을 쉽게 하기 위해, 독일어의 경우처럼 모든 라틴 문자 변형(1–4, 9, 10, 13–16)에서 7개의 특수 문자가 같은 위치에 있도록 하는 등 노력을 기울였다. 특히, 변형 1–4는 모든 문자가 지정된 위치에 있거나 아예 없도록 공동 설계되었다.

3. 3. ISO/IEC 8859-1 상세 설명

ISO/IEC 8859-1은 "라틴 문자 제1부"라고 불리며, 라틴 문자 191개로 구성된다. 이 문자 인코딩은 아메리카 대륙, 서유럽, 오세아니아, 아프리카의 많은 지역에서 사용되며, 동아시아 언어의 대부분의 표준 로마자 표기에서도 널리 사용된다.

각 문자는 단일 8비트 부호 값으로 부호화된다. ISO/IEC 8859-1은 다음 언어들에 사용될 수 있다.



다만, 몇몇 문자들은 부족하여 일부 언어에서는 널리 사용되는 다른 문자 집합으로 대체되기도 한다.



ISO/IEC 8859-1에는 대부분의 프랑스어 텍스트 표기에 충분한 문자가 포함되어 있지만, 사용 빈도가 낮은 소수의 문자가 누락되어 있다. 여기에는 IJ|IJnl의 단일 글리프 표현, 외국의 고유 명사나 소수의 외래어에서 사용되는 핀란드어 문자(Š|Šfi와 Ž|Žfi), 인쇄용 인용 부호, 대시, 유로 기호(en)(€|€영어)나 단검 (†)과 같은 자주 사용되는 기호가 포함된다.

ISO/IEC 8859-15는 ISO/IEC 8859-1의 업데이트 버전으로 개발되어 이러한 문자 중 일부를 제공했다. 하지만 이를 위해 ISO/IEC 8859-1에서 자주 사용되지 않는 문자(¤, ¦, ¨, ´, ¸, ¼, ½, ¾)를 몇 개 제거해야 했다.

ISO/IEC 8859-1에 의해 부호화되는 191개의 문자는 모두 "도형"(graphic)이며, 대부분의 웹 브라우저와 호환되므로, 다음 표에서 글리프로 나타낼 수 있다.

ISO/IEC 8859-1
x0x1x2x3x4x5x6x7x8x9xAxBxCxDxExF
0x미사용
1x
2xSP!"#$%&'()*+,-./
3x0123456789:;<=>?
4x@ABCDEFGHIJKLMNO
5xPQRSTUVWXYZ[]^_
6x`abcdefghijklmno
7xpqrstuvwxyz{}~
8x미사용
9x
AxNBSP¡¢£¤¥¦§¨©ª«¬SHY®¯
Bx°±²³´µ·¸¹º»¼½¾¿
CxÀÁÂÃÄÅÆÇÈÉÊËÌÍÎÏ
DxÐÑÒÓÔÕÖרÙÚÛÜÝÞß
Exàáâãäåæçèéêëìíîï
Fxðñòóôõö÷øùúûüýþÿ



부호 값 00–1F, 7F–9F는 ISO/IEC 8859-1에서는 문자를 할당하지 않았다. 하위 영역의 20부터 7E(G0 부분 집합)는 ISO 646 US 버전(통칭 ASCII)의 G0 부분 집합과 정확히 동일한 매핑이다.

4. ISO/IEC 8859와 유니코드

1991년부터 유니코드 협회(Unicode Consortium)는 ISO 및 IEC와 협력하여 유니코드 표준 및 ISO/IEC 10646: 범용 문자 집합(UCS)을 개발해 왔습니다. ISO/IEC 8859의 최신 버전은 유니코드/UCS 이름과 ''U+nnnn'' 표기법으로 문자를 표현하며, ISO/IEC 8859의 각 부분을 UCS의 매우 작은 하위 집합을 단일 8비트 바이트에 매핑하는 유니코드/UCS 문자 인코딩 방식으로 효과적으로 만듭니다. 유니코드와 UCS의 처음 256개 문자는 ISO/IEC-8859-1(라틴-1)의 문자와 동일합니다.

ISO/IEC 8859의 일부와 그 파생물을 포함한 단일 바이트 문자 집합은 1990년대에 선호되었으며, 잘 정립되어 있고 소프트웨어에서 구현하기 쉽다는 장점이 있었습니다. 하나의 바이트를 하나의 문자에 대응시키는 것은 단순하며 대부분의 단일 언어 응용 프로그램에 적합하며, 결합 문자나 변형된 형태가 없습니다. 유니코드를 지원하는 운영 체제가 널리 보급되면서 ISO/IEC 8859 및 기타 레거시 인코딩의 인기는 줄어들었습니다. ISO 8859 및 단일 바이트 문자 모델의 잔재는 많은 운영 체제, 프로그래밍 언어, 데이터 저장 시스템, 네트워킹 응용 프로그램, 디스플레이 하드웨어 및 최종 사용자 응용 프로그램 소프트웨어에 여전히 남아 있지만, 대부분의 최신 컴퓨팅 응용 프로그램은 내부적으로 유니코드를 사용하며, 필요에 따라 다른 인코딩으로의 매핑을 위해 변환 테이블에 의존합니다.

ISO/IEC 8859 표준은 ISO/IEC 합동 기술 위원회 1, 소위원회 2, 실무 그룹 3(ISO/IEC JTC 1/SC 2/WG 3)에서 관리했습니다. 2004년 6월, WG 3가 해산되었고, 유지 관리 업무는 SC 2로 이전되었습니다. 현재 이 표준은 업데이트되지 않고 있는데, 이는 소위원회의 유일한 남은 작업 그룹인 WG 2가 유니코드의 범용 문자 집합 개발에 집중하고 있기 때문입니다.

5. ISO-8859-1과 Windows-1252의 혼동

1992년 Internet Assigned Numbers Authority는 문자 매핑 '''ISO_8859-1:1987'''을 인터넷에서 사용하기 위해 등록했다. 이것은 ISO 8859-1의 상위 집합이며, 권장 MIME 이름은 '''ISO-8859-1'''이다(ISO 8859-1에 여분의 하이픈이 붙어 있는 것에 주의).

하지만 실제로는 Windows-1252로 부호화되어 있는데, 잘못하여 문자 집합 ISO-8859-1로 라벨을 붙이는 경우가 매우 흔하다. Windows-1252에서는 0x80부터 0x9F 사이의 부호가 문자와 약물(記号)에 사용되지만, ISO-8859-1에서는 제어 부호이다.

ISO-8859-1 제어 문자 (0x80-0x9F)약어Windows-1252 문자
80 (16진수)PADPadding Character영어
81 (16진수)HOPHigh Octet Preset영어
82 (16진수)BPHBreak Permitted Here영어
83 (16진수)NBHNo Break Here영어
84 (16진수)INDIndex영어
85 (16진수)NEL다음 줄
86 (16진수)SSAStart of Selected Area영어
87 (16진수)ESAEnd of Selected Area영어
88 (16진수)HTSCharacter Tabulation Set영어
89 (16진수)HTJCharacter Tabulation with Justification영어
8A (16진수)VTSLine Tabulation Set영어
8B (16진수)PLDPartial Line Forward영어
8C (16진수)PLUPartial Line Backward영어
8D (16진수)RIReverse Line Feed영어
8E (16진수)SS2Single Shift 2영어
8F (16진수)SS3Single Shift 3영어
90 (16진수)DCSDevice Control String영어
91 (16진수)PU1Private Use 1영어
92 (16진수)PU2Private Use 2영어
93 (16진수)STSSet Transmit State영어
94 (16진수)CCHCancel Character영어
95 (16진수)MWMessage Waiting영어
96 (16진수)SPAStart of Guarded Area영어
97 (16진수)EPAEnd of Guarded Area영어
98 (16진수)SOSStart of String영어
99 (16진수)SGCISingle Graphic Character Introducer영어
9A (16진수)SCISingle Character Introducer영어
9B (16진수)CSIControl Sequence Introducer영어
9C (16진수)STString Terminator영어
9D (16진수)OSCOperating System Command영어
9E (16진수)PMPrivacy Message영어
9F (16진수)APCApplication Program Command영어



많은 웹 브라우저와 전자 메일 클라이언트는 이러한 라벨링 오류에 대응하기 위해 ISO-8859-1의 제어 부호를 Windows-1252의 문자로 해석한다. 그러나 이것은 표준을 준수하는 동작이 아니므로, ISO-8859-1로 라벨링된 내용에서는 이러한 문자를 생성하는 것을 피하도록 주의해야 한다.

6. 관련 문자 매핑

ISO/IEC 8859-1 표준은 오랫동안 다양한 문자 매핑(문자 집합, charsets, 코드 페이지)의 기반이 되어 왔다. 가장 유명한 것은 '''ISO-8859-1'''과 Windows-1252이다. 이 매핑들은 ISO/IEC 8859-1의 상위 집합으로, 00–1F, 7F, 80–9F 범위의 부호 값에 추가 문자를 매핑하여 표준의 191문자에 할당을 추가한다.

1992년, IANA는 문자 매핑 '''ISO_8859-1:1987'''을 인터넷에서 사용하기 위해 등록했다. ISO_8859-1:1987은 ISO 8859-1의 상위 집합이며, MIME 이름 '''ISO-8859-1'''(ISO 8859-1에 하이픈이 추가됨)로 더 널리 알려져 있다. 이 매핑은 C0 및 C1 제어 문자를 부호 값 00–1F, 7F, 80–9F에 할당하여 256개의 문자를 제공한다.[1]

ISO-8859-1은 HTTP를 통해 전달되는 문서("text/"로 시작하는 MIME 타입)의 기본 인코딩이다. 또한 기술적인 HTTP 헤더 값의 기본 인코딩이며, 해당 문자 집합을 사용하는 로케일의 UNIX 머신에서 X Window System에 의해 사용되는 표준 인코딩이다. ISO-8859-1은 HTML 3.2 문서에서 허용되는 문자 레퍼토리의 기초가 된다(HTML 4.0은 Unicode 기반).[2]

ISO-8859-1의 공식 명칭과 권장 MIME 명칭 외에도 '''ISO_8859-1''', '''ISO-8859-1''', '''iso-ir-100''', '''csISOLatin1''', '''latin1''', '''l1''', '''IBM819''', '''CP819'''와 같은 별칭이 등록되어 있다. ISO-8859-1은 ISO/IEC 10646과 Unicode의 처음 256개 부호 위치에도 포함되었다.[3]

ISO-8859-1 제어 문자
부호 값제어 문자약어
00널 문자NUL
01헤더 시작SOH
02텍스트 시작STX
03텍스트 종료ETX
04전송 종료EOT
05문의 문자ENQ
06응답ACK
07벨 문자BEL
08백스페이스BS
09수평 탭TAB
0A줄 바꿈LF
0B세로 탭VT
0C서식 피드FF
0D캐리지 리턴CR
0E시프트 아웃SO
0F시프트 인SI
10데이터 링크 이스케이프DLE
11장치 제어 1DC1
12장치 제어 2DC2
13장치 제어 3DC3
14장치 제어 4DC4
15부정 응답NAK
16동기 신호SYN
17전송 블록 종료ETB
18취소 문자CAN
19매체 종료EM
1A대체 문자SUB
1B이스케이프 문자ESC
1C파일 분리 문자FS
1D그룹 분리 문자GS
1E레코드 분리 문자RS
1F단위 분리 문자US
7F삭제 문자DEL
80Padding CharacterPAD
81High Octet PresetHOP
82Break Permitted HereBPH
83No Break HereNBH
84IndexIND
85다음 줄NEL
86Start of Selected AreaSSA
87End of Selected AreaESA
88Character Tabulation SetHTS
89Character Tabulation with JustificationHTJ
8ALine Tabulation SetVTS
8BPartial Line ForwardPLD
8CPartial Line BackwardPLU
8DReverse Line FeedRI
8ESingle Shift 2SS2
8FSingle Shift 3SS3
90Device Control StringDCS
91Private Use 1PU1
92Private Use 2PU2
93Set Transmit StateSTS
94Cancel CharacterCCH
95Message WaitingMW
96Start of Guarded AreaSPA
97End of Guarded AreaEPA
98Start of StringSOS
99Single Graphic Character IntroducerSGCI
9ASingle Character IntroducerSCI
9BControl Sequence IntroducerCSI
9CString TerminatorST
9DOperating System CommandOSC
9EPrivacy MessagePM
9FApplication Program CommandAPC



애플의 매킨토시 컴퓨터는 1984년 Mac OS Roman 문자 인코딩을 도입했다. Mac Roman은 서유럽 DTP(데스크톱 출판)에 적합하도록 의도되었으며, ASCII의 상위 집합이다. ISO-8859-1 문자를 거의 포함하지만, 배열은 완전히 다르다. IANA가 "Macintosh"로 등록한 후속 버전은 국제 통화 기호 ¤를 유로 기호 €로 대체했다. 구형 매킨토시 브라우저에서 웹사이트 텍스트 편집 시 문제가 발생하기도 하지만, MacRoman에서는 Windows-1252가 C1 부호 값 범위에 갖는 추가 문자에 대응하며, 매킨토시에서 ISO-8859-1(C1 제어 문자 포함) 또는 Windows-1252로 부호화/표시된 파일(및 전자 메일)을 송수신할 수 있다.[4]

DOS에는 코드 페이지 850이 있으며, ISO-8859-1의 모든 인쇄 가능 문자와 코드 페이지 437의 가장 널리 사용되는 그림 문자를 포함한다(배열은 다름).[5]

참조

[1] 간행물 Optical Character Recognition Systems for French Language http://dx.doi.org/10[...] Springer International Publishing 2023-12-04
[2] 간행물 Final Text of DIS 8859-1, 8-bit single-byte coded graphic character sets—Part 1: Latin alphabet No.1 http://www.open-std.[...] 1998-02-12
[3] 문서 The 1985 edition includes only a version of ISO-8859-1.
[4] 문서 The 1986 edition defines [[KOI8-E]], which is an entirely different encoding.
[5] 웹사이트 Proposed ISO 8859-12 (later 14) http://www.evertype.[...]
[6] 웹사이트 The ISO 8859 Alphabet Soup http://wwwwbs.cs.tu-[...] 1997-10-12
[7] 웹사이트 ISO-8859-10; registration of new charset values; error in MIME draft http://mail.apps.iet[...] Royal Institute of Technology (KTH) 1996-04-11
[8] 웹사이트 Resolutions of the 12th Meeting of ISO/IEC JTC 1/SC 2/WG 3, Iraklion-Crete, Greece, 1997-07-04, 07 http://anubis.dkuug.[...] ISO/IEC JTC 1/SC 2 N 2933, ISO/IEC JTC 1/SC 2/WG 3 N 401 1997-07-04
[9] 웹사이트 The ISO 8859 Alphabet Soup http://czyborra.com/[...] 1998-12-01
[10] 웹사이트 Registration of new MIME charset: Windows-1257 https://www.iana.org[...] IANA 1996-05-03
[11] 웹사이트 8.2.2.3. Character encodings https://www.w3.org/T[...] W3C
[12] 웹사이트 Legacy single-byte encodings https://encoding.spe[...] WHATWG
[13] 웹사이트 Names and labels https://encoding.spe[...] WHATWG
[14] 문서 네덜란드어에서 쓰이는 [[IJ:*IJ/ij]] 문자가 빠졌으며, 로마 문자 IJ로 사용된다.
[15] 문서 빠진 글자는 ISO 8859-15에 추가되었다.
[16] 문서 1991년 우크라이나어에 재도입된 Ґ/ґ 문자가 빠져있다.



본 사이트는 AI가 위키백과와 뉴스 기사,정부 간행물,학술 논문등을 바탕으로 정보를 가공하여 제공하는 백과사전형 서비스입니다.
모든 문서는 AI에 의해 자동 생성되며, CC BY-SA 4.0 라이선스에 따라 이용할 수 있습니다.
하지만, 위키백과나 뉴스 기사 자체에 오류, 부정확한 정보, 또는 가짜 뉴스가 포함될 수 있으며, AI는 이러한 내용을 완벽하게 걸러내지 못할 수 있습니다.
따라서 제공되는 정보에 일부 오류나 편향이 있을 수 있으므로, 중요한 정보는 반드시 다른 출처를 통해 교차 검증하시기 바랍니다.

문의하기 : help@durumis.com